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摘要 : [ 目的 /意义 ] 为 更 好 地 处 理 文本 摘要 任务 中 的 未 登录 词 (out of vocabulary ,0OV ) ,同时 避免 摘要 重 
复 , 提 高 文本 摘要 的 质量 ,本 文 以 解决 00V 问题 和 摘要 自我 重复 问题 为 研究 任务 ,进行 抽象 式 中 文 文本 摘要 研 
完 。[ 方 法 /过 程 ] 在 序列 到 序列 (sequence to sequence，, seq2seq ) 模 型 的 基础 上 增加 指向 生成 机 制 和 徐 盖 处 理 机 
制 ,通过 指向 生成 将 未 登录 词 拷 贝 到 摘要 中 以 解决 未 登录 词 问 题 ,通过 窗 盖 处 理 避 免 注 意 力 机制 (attention 
mechanism) 反 复 关 注 同一 位 置 ,以 解决 重复 问题 。 将 本 文 方法 应 用 到 LCSTS 中 文摘 要 数据 集 上 进行 实验 ,检验 
模型 效果 。 [ 结果 /结论 ] 实验 结果 显示 ,该 模型 生成 摘要 的 ROUGE (recall-oriented understudy for gisting evalua- 
tion) 分 数 高 于 传统 的 seq2seq 模型 以 及 抽取 式 文 本 摘要 模型 ,表明 指向 生成 和 和 窗 盖 机 制 能 够 有 效 解决 未 登录 词 


再 驯 和 摘要 重复 问题 ,从 而 显著 提升 文本 摘要 质量 。 
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注意 力 机 制 


履 盖 机 制 ”指向 生成 机 制 


随 着 大 数据 时 代 的 高 速 发 展 ,网 络 新 闻 .评论 等 文 
本 数据 呈 指 数 增长 ,人 工 生 成 摘要 面临 巨大 的 资源 和 
效率 难 题 ,如何 利 用 机 器 和 程序 自动 对 文本 进行 摘要 ， 
通过 消除 非 关键 和 宛 余 的 信息 来 压缩 并 提取 文本 的 主 
要 信息 成 为 研究 热点 。 

依照 研究 任务 的 不 同 ,文本 摘要 可 分 为 抽取 式 摘 
要 Cextractive summarization ) 和 抽象 式 摘要 ( abstractive 
summarization) 。 前 者 直接 从 源 文本 中 抽取 具有 代表 
性 的 文本 要 素 ( 包 括 单词 .短语 和 句子 ) 以 形成 摘要 ; 
后 者 涉及 句子 的 压缩 与 重 构 ,通过 获取 源 文本 的 语 
义 表 示 , 利 用 自然 语言 生成 技术 产生 摘要 。 抽 象 式 
方法 基于 文本 的 语义 信息 以 生成 高 度 抽 象 的 摘要 ， 
其 结果 与 源 文本 在 语义 上 更 相似 ,并 且 便 于 用 户 理 
解 。 在 抽象 式 摘要 任务 中 ,序列 到 序列 "" (sequence 
to sequence ,seq2seq) 模 型 是 一 种 较 常用 的 方法 。 该 
模型 通常 基于 循环 神经 网 络 (recurrent neural net- 
work，RNN) 对 源 文档 进行 编码 和 解码 ,其 摘要 结果 


具有 连贯 性 , 且 与 源 文档 的 语义 相关 性 较 高 。 在 当 
前 研究 中 ,seq2seq 模型 仍然 面临 一 些 问题 。 首 先 ， 
seq2seq 模型 无 法 很 好 地 处 理 未 登录 词 , 从 而 导致 生 
成 的 摘要 遗漏 重要 信息 。 其 原因 在 于 ,在 序列 模型 
中 ,解码 右 在 每 个 时 间 步 都 会 生成 一 个 词语 ,该 词语 
通常 来 自 于 一 个 固定 的 词汇 表 , 通 过 计算 概率 (例如 
softmax 方法 ) 得 到 。 从 计算 成 本 和 模型 训练 速度 的 
角度 考虑 ,词汇 表 通 常 不 会 包含 训练 集中 的 所 有 词 
语 , 因 此 部 分 词语 在 生成 摘要 时 无 法 被 使 用 。 在 训 
练 集中 出 现 的 大 量 低频 词语 在 摘要 中 会 以 UNK(un- 
known words ) 形式 来 表示 , 较 大 程度 影响 摘要 的 可 读 
性 。 其 次 ,seq2sed 模型 在 解码 过 程 中 ,通常 引入 注意 
力 机 制 来 改变 关注 焦点 ,容易 在 不 同 的 时 间 步 多 次 
关注 同一 词语 ,使 得 生成 的 摘要 中 存在 重复 片段 , 降 
低 摘要 质量 。 

为 解决 上 述 问 题 ,本 文 尝试 将 指向 生成 机 制 应 
用 到 seq2seq 模型 中 ,开展 中 文 抽 象 式 文本 摘要 的 
实证 研究 ,检验 模型 效果 ,以 期 为 相关 研究 提供 借 
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2 相关 研究 


2.1 抽象 式 文本 摘要 
抽象 式 文本 摘要 具有 良好 的 连贯 性 和 高 凝聚 性 ， 
近年 来 成 为 自然 语言 处 理 领域 的 研究 热点 。 研 究 者 们 
将 多 种 技术 应 用 于 抽象 式 文本 摘要 ,包括 基于 结构 的 
方法 .基于 语义 的 方法 和 基于 深度 学 习 的 方法 等 。 
2.1.1 基于 结构 的 抽象 式 文本 摘要 ”基于 结构 的 抽 
象 式 文本 摘要 方法 主要 通过 框架 .模板 . 树 等 模式 对 文 
档 的 重要 信息 进行 编码 。 例 如 ,HT Le 等 中 基于 源 
文本 序列 .关键 词 以 及 名 法 约束 进行 句子 缩减 ,利用 词 
图 完成 句子 融合 ,最 终 产生 包含 完整 源 文档 信息 且 句 
法 正确 的 抽象 摘要 。 赵 文 娟 等 依据 相应 规则 将 与 
位 相关 联 的 信息 填充 到 给 定 的 事件 模板 中 ,并 以 “德国 
之 小 坠 机 事件 "为 例 验 证 了 该 方法 的 有 效 性 。 基 于 结 
椅 记 方法 较 易 实现 ,但 其 依赖 于 源 文档 的 篇 章 结构 和 
形式 ,在 实际 应 用 中 具有 局 限 性 。 
2iz 2 基于 语义 的 抽象 式 文本 摘要 ”基于 语义 的 抽象 
式 文 本 摘要 方法 主要 通过 自然 语言 处 理 技 术 识别 源 广 
档 中 的 名 词 和 动词 短语 ,使 用 标注 和 聚 类 技术 确定 重要 
外交 俏 信息 ,最 终 将 得 到 的 语义 表示 应 用 到 自然 语言 生 
成 系统 中 以 生成 最 终 摘要 。 例 如 , 张 输 等 ”基于 源 文档 
概观 及 其 语义 关系 构建 语义 图 ,利用 语义 图 中 的 关键 信 
息 于 成 摘要 ,结果 表明 该 方法 能 够 有 效 获取 文档 的 重要 
售 片 ,生成 摘要 的 准确 率 . 召 回 率 和 F 值 较 高 。A， Khan 
等 网 使 用 语义 角色 标注 识别 句子 的 语义 结构 ,利用 改进 
的 图 排序 算法 对 重要 的 图 结 点 进行 排序 ,选择 排序 最 高 
的 图 结 点 生成 摘要 ,在 DUC 数据 集 上 的 ROUGE -1、 
ROUGE2 分 数 分 别 为 0.417 和 0. 108 ,高 于 基线 方法 , 显 
示 了 该 方法 的 优越 性 能 。 王 振 超 等 基于 文档 的 语义 
信息 提出 一 种 以 事件 作为 基本 语义 单元 的 抽象 式 摘要 
方法 ,对 事件 进行 聚 类 并 利用 事件 指导 摘要 语句 的 生 
成 。 基 于 语义 的 方法 能 够 很 好 地 捕获 源 文档 的 语义 信 
息 ,能够 有 效 提升 摘要 与 源 文档 的 语义 相关 性 。 其 局 限 
性 在 于 未 使 用 神经 网 络 自动 学 习 文本 特征 及 表示 ,模型 
无 法 自动 学 习 和 生成 ,因此 效率 不 高 。 
2.1.3 基于 深度 学 习 的 抽象 式 文本 摘要 ”基于 深度 
学 习 的 文本 摘要 方法 通常 将 文本 摘要 看 作 序 列 到 序列 
的 问题 ,即将 源 文 档 作为 输入 序列 ,生成 的 摘要 是 输出 
序列 。 该 类 方法 利用 深层 次 网 络 ,能 够 更 有 效 学 习 文 
本 表示 ,捕获 源 文档 中 的 重要 信息 。D，Bahdanau 等 " 
最 早 将 seq2seq 模型 用 于 神经 机 器 翻译 任务 ,利用 循环 
神经 网 络 将 源 文档 编码 成 固定 长 度 的 向 量 ,再 解码 生 
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成 对 应 翻译 。 相 对 于 统计 学 方法 ,seq2sed 模型 具有 更 
好 地 非 线性 数据 处 理 能 力 ,但 无 法 很 好 地 处 理 较 长 的 
输入 序列 ,并 且 对 齐 效 果 较 差 。 为 进一步 改进 其 效果 ， 
A. M.，Rush 等 ”在 编码 器 -解码 器 框架 基础 上 增加 
注意 力 机 制 (attention mechanism) ,使 解码 器 在 每 一 时 
间 步 关注 不 同 的 输入 部 分 ,结构 化 地 选取 输入 子 集 以 
降低 数据 维度 ,同时 使 模型 更 专注 于 找到 与 输入 数据 
和 当前 输出 显著 相关 的 有 用 信息 。 随 后 ,研究 者 利用 
循环 解码 器 ”、 层 次 网 络 ”以 及 自 编码 器 '" 等 对 该 模 
型 进行 改进 ,进一步 提升 了 模型 的 效果 。 谢 鸭 元 等 
将 文档 类 别 信息 加 入 到 抽象 式 摘 要 中 ,利用 卷 积 神经 
网 络 (convolutional neural network ，CNN ) 对 文档 进行 分 
类 ,在 seq2seq 基础 上 结合 文本 类 别 特征 生成 摘要 , 相 
对 于 传统 seq2seq 模型 取得 了 更 高 的 ROUGE 分 数 。 
2.2 ”seq2seq 模型 
由 于 深度 学 习 能 够 很 好 地 揭示 和 获取 文本 信息 的 
内 在 语义 表示 ,在 抽象 式 文本 摘要 任务 中 取得 了 更 好 
的 效果 ,因此 seq2seq 模型 逐渐 成 为 主流 。 然 而 在 当前 
研究 中 ,seq2seq 仍 面临 未 登录 词 问题 .重复 词汇 问题 
等 众多 挑战 。 
2.2.1 未 登录 词 问题 seq2sed 模型 通常 在 训练 时 会 
构建 一 个 固定 的 词 表 ,解码 器 从 该 词 表 中 采样 来 生成 
词语 。 考 虑 到 计算 效率 ,人 研究 者 通常 会 根据 词 频 来 限 
制 解码 词 表 的 规模 ,导致 某 些 低频 词语 无 法 被 解码 出 
来 ,造成 未 登录 词 问题 。 为 解决 未 登录 词 问题 ,研究 者 
提出 增加 解码 词 表 规模 、 降 低 词 表 粒度 和 采用 拷贝 机 
制 等 方法 。 
增加 解码 词 表 规模 最 为 直接 。 这 类 方法 专注 于 提 
高 softmax 层 的 处 理 速度 ,使 词 表 能 够 最 大 限度 地 包含 
更 多 的 词汇 ,从 而 降低 未 登录 词 的 出 现 概 率 。 例 如 ,S. 
Jean 等 ”利用 重要 性 采样 降低 在 计算 输出 词语 概率 
相关 范 数 时 的 复杂 度 ,从 而 提高 解码 效率 ,该 方法 能 够 
在 不 显著 增加 模型 复杂 度 的 条 件 下 ,构建 一 个 具有 更 
大 词汇 量 的 词 表 。 尽 管 词 表 的 词汇 数量 足够 大 日 包含 
训练 集中 的 所 有 低频 词语 ,但 理论 上 仍 不 能 涵盖 所 有 
的 词语 ,因此 模型 在 测试 集 上 的 效果 无 法 显著 提升 。 
另 一 种 可 行 思路 是 从 理论 上 降低 词 表 的 粒度 。 例 
如 ,Z，Xie 等 "以 字母 作为 编码 器 - 解码 器 模型 的 基 
本 处 理 单元 ,将 其 应 用 于 自然 语言 纠 错 任务 ,在 CoNLL 
2014 Challenge 数据 集 上 取得 了 最 优 的 F0.5 值 ,很 好 
地 解决 了 未 登录 词 问题 。 该 类 方法 将 模型 的 输入 和 输 
出 从 以 词语 为 基本 单元 转变 为 以 字母 或 字 节 为 基本 单 
元 ,能 够 减少 未 登录 词 的 出 现 ,在 一 定 程 度 上 解决 未 登 


Fc 


109 


图 二 情报 三 作 


第 63 卷 第 11 期 2019 年 6 月 


录 词 问题 ,但 是 这 种 方法 会 增加 模型 处 理 序列 的 长 度 
从 而 增 大 模型 的 训练 难度 。 

第 三 种 方法 是 采用 拷贝 机 制 。 例 如 ,M. T. Luong 
等 利用 上 下 文 信息 指向 未 登录 词 在 源 文档 中 的 位 
置 ,从 而 将 其 复制 到 目标 语句 中 。 但 是 该 模型 没有 使 
用 注意 力 机 制 , 且 模型 指向 源 文档 的 位 置 在 一 个 特定 
的 范围 内 ,无 法 适用 于 更 一 般 的 文本 生成 任务 。J. Gu 
等 "提出 拷贝 网 络 (CopyNet) 模 型 ,该 模型 将 拷贝 机 
制 融 入 到 seq2seq 模型 中 ,将 源 文档 中 的 未 登录 词 拷贝 
到 最 终 摘要 中 以 解决 未 登录 词 问题 。R. Nallapati 
等 "在 解码 器 上 配置 一 个 开关 ,该 开关 本 质 是 线性 层 
的 sigmoid 激活 函数 。 开 关 打开 时 ,解码 器 按照 传统 
seq2seq 的 方式 从 词汇 表 中 生成 词语 ; 若 开关 关闭 , 解 
码 器 指向 源 文档 中 的 对 应 位 置 , 并 将 该 位 置 的 词语 复 
制 到 摘要 中 。 该 方法 相对 于 前 两 类 方法 效率 更 高 ,能 
条 5 好 地 解决 未 登录 词 问题 。 
2CZD2 重复 词汇 问题 “seq2seq 模型 在 解码 过 程 中 ， 
通常 引 入 注意 力 机 制 来 改变 关注 焦点 。 注 意 力 机制 容 
易 在 不 同 的 时 间 步 多 次 关注 同一 词语 ,导致 解码 器 在 


和 抑 凶 时 间 步 的 输入 相同 ,因此 最 终生 成 的 摘要 中 存在 


恒 宇 片 月 。 歼 盖 机 制 能 够 很 好 解决 这 种 重复 词汇 问 
题 沪 机 制 最 早 应 用 于 神经 机 器 翻译 (neural machine 
traiislation ,NM ) 任务 ,典型 的 编码 器 - 解码 器 框架 缺乏 
对 区 翻译 源 词语 的 关注 ,可 能 导致 过 翻译 (over transla- 
tiob》 和 欠 翻 译 (under translation ) 问题 。Z，Tu 等 "在 
NM 藻 模 型 中 加 入 覆盖 向 量 来 增加 对 历史 注意 力 的 关 
注 6 礁 次 注意 力 更 新 之 后 ,利用 门 控 神经 单元 (gated re- 
current unit) 对 该 向 量 进行 更 新 ,同时 该 向 量 用 于 调整 
未 来 的 注意 力 分 布 。 

在 上 述 背景 下 ,本 文学 试 将 指向 生成 机 制 应 用 到 
seq2seq 模型 中 :一 方面 ,在 seq2seq 模型 的 基础 上 增加 
指向 生成 机 制 , 来 处 理 未 登录 词 。 当 解码 器 中 的 词语 
是 未 登录 词 时 ,模型 指向 源 文档 中 该 词语 的 位 置 , 并 将 
对 应 词语 复制 到 最 终 摘要 中 ,确保 最 终 摘 要 的 准确 性 。 
反之 ,车 解码 器 中 的 词语 不 是 未 登录 词 ,此 时 模型 与 伟 
统 序列 模型 相似 ,解码 器 从 词汇 表 中 生成 新 的 词语 以 
形成 摘要 ,保持 seq2seq 模型 的 抽象 生成 能 力 。 另 一 方 
面 ,在 指向 生成 器 网 络 基础 上 增加 覆盖 机 制 ,避免 注意 
力 机 制 重复 关注 相同 位 置 ,从 而 减少 摘要 中 的 重复 词 
汇 。 在 此 基础 上 ,开展 中 文 抽象 式 文本 摘要 的 实证 研 
究 ,检验 模型 效果 。 
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3 ”研究 方法 


3.1 研究 问题 及 相关 定义 

本 文 的 研究 任务 为 抽象 式 中 文 文本 摘要 。 假 定 模 
型 输入 一 个 长 度 为 了 的 序列 X = |x,,…,xr| ,话语 生 
成 是 指 利用 序列 X 和 一 定 的 模型 ,生成 长 度 为 M 的 序 
列 Y = iy,，…,yu| ,其 中 X 为 输入 的 句子 序列 ,Y 为 
输出 的 句子 序列 ,了 和 M 分 别 为 输入 序列 和 输出 序列 
的 长 度 , 且 T>M。 这 里 的 模型 由 编码 器 和 解码 器 两 部 
分 构成 。 编 码 器 将 序列 X 按 不 同时 刻 输入 到 编码 器 ， 
得 到 其 编码 h ;解码 器 将 该 编码 hn 输入 到 解码 器 ,从 
而 得 到 输出 序列 Y。 模 型 每 次 输入 源 文本 中 一 个 词 ， 
通过 词 向 量 层 将 其 转换 为 分 布 式 表 示 。 

对 于 给 定 的 源 文档 Wi, 模 型 的 目标 是 生成 由 词语 
y 构成 的 摘要 序列 ,从 概率 论 的 角度 来 看 ,一 般 的 
seq2seq 模型 在 每 个 时 间 步 会 选择 概率 最 大 的 词语 以 
形成 摘要 。 为 简化 书写 ,下 文 对 模型 的 描述 使 用 表 1 
中 的 符号 。 


表 1 符号 说 明 


符号 说 明 
i 下 标 i 表示 源 文档 和 输入 序列 中 的 词语 ;下 标 t 表示 某 一 时 刻 
ht st 分 别 表示 编码 器 隐藏 状态 序列 和 解码 器 隐藏 状态 
al 在 时 间 步 t 时 的 注意 力 分 布 
ci 上 下 文 向 量 
Pvocab 问 定 词 汇 表 中 所 有 词语 的 概率 分 布 
P(y) 生成 词语 y 的 概率 分 布 


3.2 ”模型 描述 

本 文 所 采用 的 seq2seq 模型 架构 见 图 1。 它 在 传 
统 的 seq2seq 模型 ”基础 上 添加 指向 生成 机 制 与 覆盖 
处 理 机 制 。 在 每 一 时 间 步 ,模型 通过 计算 生成 概率 来 
决定 从 源 文本 中 复制 词语 还 是 从 词汇 表 中 生成 词语 ， 
利用 词汇 表 中 的 词语 分 布 和 注意 力 分 布 得 到 最 终 的 摘 
要 词语 的 概率 。 模 型 包括 3 个 部 分 :中 编码 器 .解码 器 
和 注意 力 模块 (参见 图 1 中 A 部 分 )。 在 该 模块 ,编码 
器 读 取 源 文档 作为 输入 ,得 到 编码 器 隐 状 态 ,解码 器 根 
据 编 码 噩 隐 状 态 生成 解码 器 隐 状 态 , 基 于 两 种 隐 状 态 
计算 每 一 时 间 步 的 注意 力 分 布 ,得 到 上 下 文 向 量 。 包 
指向 生成 模块 (参见 图 1 中 C 部 分 )。 在 该 模块 ,一 方 
面 ,模型 基于 上 下 文 向 量 和 解码 器 隐 状 态 得 到 词汇 表 
词语 分 布 和 生成 概率 Pgen。 男 一 方面 ,模型 从 注意 力 
分 布 中 采样 来 复制 词语 ,复制 概率 为 (1-Pgen) 。 基 于 
两 部 分 分 布 得 到 目标 词语 的 最 终 分 布 , 图 1 词语 最 终 
分 布 中 的 实心 部 分 来 自 注意 力 分 布 ,空心 部 分 来 自 词汇 
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词语 最 终 分 布 


C. 指向 生成 
模块 


B. 覆盖 处 理 
模块 


编码 器 


表 词 语 分 布 。@@ 黎 盖 处 理 模块 (参见 图 1 中 了 部 分 )。 
改 蕊 处 理 模块 对 之 前 时 间 步 的 注意 力 计算 加 权 和 ,得 
全 Mj 盖 向 量 ,将 其 作为 计算 注意 力 分 布 的 一 项 额外 输 
/AS 以 下 分 节 展开 论述 。 
3. 如 1 编码 器 、 解 码 器 与 注意 力 模块 
(1) 编 码 器。 编码 器 由 单 层 双向 的 长 短期 记忆 网 
络 圈 (long shor -tierm memory, LSTM) 构成 ,编码 器 依 
次 转 取 输入 序列 X, 在 某 一 时 刻 t 得 到 的 隐 状 态 可 由 公 
zi ) 计 算 : 


h,=f(%,,h,1) 公式 (1) 
其 中 ,h,_, 表 示 在 上 一 个 时 刻 t-1 时 的 编码 絮 隐 
状态 ,%, 是 当前 时 刻 输 入 ,f( ) 是 一 个 非 线性 函数 。 
基本 的 seq2seq 模型 能 够 按照 任意 顺序 生成 词汇 
表 中 的 词语 进而 得 到 最 终 摘要 ,而 注意 力 机 制 能 够 有 
效 获 取 源 文本 序列 中 的 每 个 词 向 量 ,同时 确定 与 输出 
摘要 更 加 相关 的 向 量 , 使 得 模型 更 加 专注 于 有 用 的 词 
语 。 在 每 一 个 时 间 步 i, 模 型 根据 公式 (2) 计 算 当 前 的 
注意 力 分 布 : 
a =sofimax(w’ tanh(wi h, +w, s,+0)) 公式 (2) 
公式 (2) 中 的 wwi、w, 以 及 bl 是 能 够 通过 训练 
学 习 得 到 的 参数 。h, 是 由 公式 (1) 得 到 的 编码 器 隐 状 
态 ,s, 是 解码 器 隐 状 态 。 注 意 力 分 布 可 以 看 作 是 源 文 
本 中 词语 的 概率 分 布 ,能够 告诉 解码 器 在 生成 下 一 个 
词语 时 应 该 关注 哪里 ,概率 高 的 词语 在 下 一 时 间 戳 生 


词语 分 布 


图 1 seq2seq 模型 结构 


成 摘要 词语 时 会 得 到 更 多 的 关注 ,从 而 模型 可 以 生成 
更 能 反映 源 文本 信息 的 词语 。 

编码 器 能 够 将 输入 序列 X 通过 隐 状 态 序 列 转化 为 
一 个 向 量 ,c, 称 作 上 下 文 向 量 ,如 公式 (3) 计 算 : 
公式 (3) 
其 中 ,a 是 由 公式 (2) 得 到 的 在 时 刻 的 注意 力 分 
布 ,作为 编码 器 隐 状 态 的 权重 ,上 下 文 向 量 能 够 看 
作 在 时 刻 t 学 习 到 的 源 序列 信息 的 表示 ,是 解码 器 的 
输入 。 

(2) 解 码 器 。 解 码 器 由 单 层 单 向 的 LSTM 构成 , 根 
据 上 下 文 向 量 c, 和 解码 器 隐 状 态 * 产生 目标 序列 Y， 
如 公式 (4) 预 测 词 表 中 词语 概率 分 布 ,模型 生成 的 目 
标 词语 概率 P(y) 与 之 相同 : 

Procas (Ys | yo) =sojfmnaxr(y is c) 公式 (4) 
其 中 ,y, 和 7》 分别 是 时 刻 1 和 t=-1 时 的 目标 词 
语 ,y., 表 示 时 刻 t 之 前 得 到 的 所 有 词语 , 即 |y,,…， 
yi | ,X 是 输入 序列 。 解 码 器 隐 状 态 s, 可 由 公式 (5) 
计算 : 


c=ah, 


5 =f(Y, 1 ,81301) 公式 (5) 

seq2seq 模型 利用 其 编码 器 、 解 码 器 和 注意 力 模 

块 计算 从 固定 词 表 中 生成 每 个 目标 词语 的 概率 分 

布 ,在 每 个 时 间 步 从 词 表 中 选择 概率 最 高 的 词语 形 
成 摘要 。 

3.2.2 指向 生成 模块 


在 seq2seq 模型 中 , 仅 依靠 注 
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意 力 机 制 并 不 能 有 效 处 理 未 登录 词 , 因 此 增加 词语 复 
制 机制 。 受 本 Gu 等 ”和 A. See 等 工作 启发 ,本 文 
采用 指向 生成 模块 来 完成 词语 复制 。 在 3. 2. 1 中 已 经 
计算 出 了 注意 力 分 布 a 和 上 下 文 向 量 ,基于 得 到 的 
上 下 文 向 量 6c、 解码 器 状态 s, 以 及 解码 器 输入 w% ,可 以 
利用 公式 (6) 计 算 词语 生成 概率 p', 这 个 概率 表示 在 
每 个 时 间 步 模型 从 词汇 表 中 生成 一 个 词语 作为 摘要 的 
可 能 | 


Pp =g(w; Ci 十 204 3 + Ws x, + 0b,) 


公式 (6) 
在 公式 (6) 中 ,ww ws 和 已 是 可 训练 得 到 的 参 
数 ,g( ) 是 一 个 sigmoid 激活 函数 。 将 p' 看 作 是 一 个 控 
制 开关 , 它 可 以 决定 模型 是 从 给 定 的 词汇 表 中 生成 还 
是 从 源 文档 中 复制 词语 。 实 际 上 ,这 是 对 源 序列 中 的 
词语 是 否 是 未 登录 词 的 一 个 判断 , 即 如 果 在 该 时 间 步 
解码 器 的 目标 词语 是 未 登录 词 , 则 p' 值 很 小 ,模型 从 源 
< 档 中 复制 词语 以 生成 摘要 ;否则 ,模型 将 基于 词汇 表 
新 的 词语 。 基 于 此 ,可 以 得 到 目标 词语 y 概率 分 
布吉 由 公式 (7 ) 计 算 ; 
~ p(y) =P Pi t+ (1 -p') Za 公式 (7) 
@ 在 公式 (7) 中 ,p' 即 由 公式 (6) 计算 得 到 的 词语 生 
机率 ,Pv 是 公式 (4) 得 到 的 词 表 中 词语 的 概率 分 
帮 了 ,ov 表示 y 是 未 登录 词 时 ,得 到 的 注意 力 分 布 之 
称 , 从 公式 (7) 可 以 看 出 ,如 果 y 是 一 个 未 登录 词 , 即 
表明 解码 器 在 该 时 间 步 生成 的 词语 没有 出 现在 给 定 的 
请 代表 中 ,因此 在 词汇 表 中 的 概率 Pi 为 0, 这 说 明 此 
时 毕 成 的 词语 y 来 自 源 文档 ,需要 从 源 文档 中 复制 得 
到 3 相反 , 若 y 没有 出 现在 源 文档 中 , 则 累计 注意 力 分 
布 蔓 为 0, 此 时 模型 从 给 定 的 词 表 中 生成 词语 。 能 
很 好 地 处 理 未 登录 词 并 将 其 复制 到 最 终 摘要 中 是 本 文 
提出 的 指向 生成 器 网 络 的 一 个 主要 优点 ,而 基于 注意 
力 机 制 的 序列 模型 则 受到 预先 设 定 词 表 的 限制 不 能 
决 未 登录 词 的 生成 问题 。 
3.2.3 柳 盖 处 理 模块 ”本 文 利 用 覆盖 处 理 模块 来 直 
免 摘要 片段 重复 。 基 于 在 所 有 之 前 的 解码 器 时 间 步 中 


部 分 的 影响 。 因 此 这 能 够 避免 注意 力 机 制 在 多 个 时 间 
步 反 复 关注 同一 个 部 分 ,从 而 避免 模型 最 终生 成 重复 
文本 ,这 也 正 是 覆盖 机 制 的 核心 思想 。 


4 实验 及 分 析 


4.1 数据 集 

本 文采 用 B. Hu 等 构建 的 大 规模 中 文 短 文本 摘 
要 数据 集 (large scale Chinese short text summarization 
dataset，LCSTS ) 。 该 数据 集 包 含 从 新 浪 微 博 上 获取 的 
超过 240 万 条 文本 及 相应 作者 给 出 的 摘要 ,每 条 文本 
不 少 于 80 个 字符 ,对 应 摘要 长 度 介 于 10 个 字符 与 30 
个 字符 之 间 。 为 保证 文本 质量 ,研究 者 收集 50 个 受 欢 
迎 ( 具 有 蓝 “V" 标 志 且 微 博 粉 丝 数量 超过 100 万 ) 的 组 
织 用 户 ,如 人 民 日 报 、 经 济 观察 报 和 国防 部 等 作为 种 
子 ,捕获 其 发 布 的 微 博 , 这 些微 博文 本 涉及 政治 .经 济 、 
军事 .电影 和 游戏 领域 。 原 完整 数据 集 包含 3 部 分 ， 
PARTI 包含 2 400 591 个 文本 摘要 对 ,PART II 和 
PART III 分 别 包 含 10 666 和 1 106 个 文本 摘要 对 。 本 
文选 择 其 中 数据 量 最 多 的 部 分 ( 即 PART I) 的 数据 进 
行 实验 。 使 用 中 文 分 词 工具 jieba ” 对 数据 进行 分 词 
处 理 , 将 分 词 后 的 数据 处 理 为 二 进 制 文件 ,并 分 为 18 
个 训练 集 数 据 文件 1 个 验证 集 数 据 文件 以 及 1 个 测 
试 集 数据 文件 。 另 外 ,seq2sed 模型 中 生成 摘要 的 固定 
词汇 表 文 件 包含 40 万 词语 ,实验 过 程 中 可 以 通过 设置 
词汇 表 大 小 选择 实际 用 来 实验 的 词语 。 
4.2 评价 指标 

为 评价 不 同 模型 生成 的 摘要 质量 , 本 文 将 
ROUGE ”分 数 作为 评价 指标 ,该 评价 指标 基于 生成 摘 
要 和 参考 摘要 (标准 摘要 ) 中 元 词汇 (N-Gram ) 的 重 
释 情 况 来 评价 自动 生成 的 摘要 结果 ,是 一 种 面向 na 元 
词 召 回 率 的 评价 方法 。 其 基本 思想 是 ,首先 由 专家 生 
成 人 工 摘要 ,构成 参考 摘要 集 ( 标 准 摘要 集 ) ,将 模型 
自动 生成 的 摘要 与 标准 摘要 相对 比 ,通过 统计 两 者 之 
间 重 释 的 基本 单元 的 数目 来 评价 不 同 模型 摘要 的 质 


的 注意 力 分 布 之 和 ,得 到 一 个 覆盖 向 量 ,该 向 量 能 够 告 
知 模型 在 之 前 的 时 间 步 已 经 关注 过 的 词语 ,因此 在 该 
时 间 步 不 需要 重复 注意 ,从 而 避免 重复 词语 的 产生 。 
在 1=0 时 ,和 履 盖 向 量 是 一 个 零 向 量 , 因 为 在 第 一 个 时 
间 步 上 , 源 文档 中 的 所 有 词语 都 还 没有 被 覆盖 ,注意 力 
分 布 为 0 导致 覆盖 向 量 取 0。 履 盖 向 量 是 注意 力 机 制 
的 一 个 额外 的 输入 ,将 其 直接 添加 到 计算 注意 力 分 布 
的 公式 (2) 中 即 可 。 这 能 够 保证 在 使 用 注意 力 机 制 
时 ,当前 时 间 步 选择 关注 的 部 分 受到 先前 时 间 步 关注 
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量 。 待 评估 摘要 与 标准 摘要 中 匹配 的 N 元 词语 (N 可 
取 1.2.3 等 自然 数 ) 越 多 ,ROUGE 分 数 越 高 ,说 明 模 型 
生成 的 摘要 越 接 近 标 准 摘 要 ,因此 质量 较 高 ,该 方法 现 
已 成 为 摘要 评价 技术 的 通用 指标 之 一 ” 。ROUGE 评 
价 指 标 由 一 系列 的 评价 方法 组 成 ,包括 ROUGE-N(N 
可 取 1.2.3 等 自然 数 ) 和 ROUGE 工 等 。 其 中 ,ROUGE- 
1 和 ROUGE2 分 别 代 表 基 于 模型 生成 的 摘要 与 标准 
摘要 之 间 的 1 元 词 和 2 元 词 重 羞 程度 ,ROUGE -L 代表 
基于 生成 摘要 和 标准 摘要 之 间 的 最 长 公共 子 序列 的 重 
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其 逢 | 


蕉 程度 。 在 本 文 实验 中 ,选取 上 述 指标 中 的 ROUGE - 
1 .ROUGCE-2 和 ROUGCE -L 来 评价 自动 生成 摘要 的 质 


4.3 对 比方 法 

本 文 针对 未 登录 词 以 及 摘要 片段 重复 问题 ,在 
seq2seq 模型 的 编码 器 .解码 嚣 和 注意 力 模块 上 增加 指 
向 生成 模块 和 窗 盖 处 理 模 块 。 为 更 好 地 研究 指向 生成 
模块 和 禾 盖 处 理 模 块 的 效果 ,在 实验 中 通过 对 参数 进 
行 设置 ,使 用 基于 注意 力 机 制 的 seq2seq 模型 ( Atten- 
tion ) ,增加 指向 生成 模块 的 seq2seq 模型 (Attention + 
PCG) ,以 及 同时 增加 指向 生成 模块 与 覆盖 处 理 模块 的 
seq2seq 模型 ( Attention + PG + Coverage )3 种 抽象 式 方 
法 进行 中 文 文本 摘要 实验 。 将 使 用 指向 生成 模块 与 覆 
闵 隶 理 模块 模型 的 实验 结果 与 seq2seq 的 实验 结果 进 
行 寻 比 。 
DD) 同时 ,为 进一步 比较 本 文 方法 相对 于 抽取 式 摘要 
访 鞭 的 效果 ,使 用 基于 TextRank'™) 的 方法 、Lead-l -First 
(把 到 原文 本 中 第 一 句 话 ) 和 Lead -1 -Last( 抽取 原文 本 
申 最 后 一 句 话 ) 这 3 种 典型 的 抽取 式 方法 作为 对 照 。 
4 参数 设置 
QJ 本 实验 中 ,神经 网 络 隐藏 状态 为 256 维 , 源 序列 与 
印 志 序列 中 词 向 量 都 是 128 维 ,使 用 包含 50 000 个 词 
语 的 词汇 表 。 实 验 没有 预先 训练 词 向 量 , 在 训练 阶段 
从 和 买 开始 进行 学 习 , 使 用 初始 学 习 率 为 0.15 且 初始 累 
加 引 值 为 0. 1 的 Adagrad 优化 算法 进行 优化 。Adagrad 
算 詹 差异 化 地 给 给 每 个 参数 分 配 学 习 率 ,这 个 过 程 是 
适 三 进行 的 。 随 着 参数 更 新 的 总 距离 的 增加 ,其 学 
速 锻 也 随 之 减 慢 。 在 测试 阶段 ,使 用 束 大 小 为 4 
搜索 (beam search ) 来 产生 摘要 。 
4.5 基础 实验 结果 评价 

按照 以 上 设置 在 LCSTS 数据 集 上 分 别 进行 摘要 实 
验 ,利用 pyrouge 包 计算 得 到 的 ROUGE 分 数 结果 如 表 
2 所 示 : 
表 2 不同 摘要 方法 在 测试 集 上 的 ROUGE 分 数 


ROUGE 分 数 ROUGE-1 ROUGE2 ROUGEL 
Lead-l First 0.111 8 0.033 8 0.103 8 
Lead-l Last 0.1340 0.045 7 0. 123 4 

TextRank 0.129 3 0.039 9 0.119 3 
Attention 0.105 4 0.009 6 0.101 4 
Attention + PG 0.308 3 0.113 6 0.284 3 
Attention + PG + Coverage 0.348 7 0.114 7 0.306 1 


从 表 2 可 以 看 出 ,在 各 种 序列 到 序列 方法 中 ,具有 
履 盖 机 制 和 指向 生成 机 制 的 模型 (Attention + PG + 
Coverage) 在 3 个 指标 上 都 取得 了 最 好 的 效果 ,其 


ROUGE 分 数 分 别 为 0.348 7 .0.114 7 以 及 0.306 1; 仅 
增加 指向 生成 机 制 的 模型 (Attention + PG ) 生成 摘要 的 
效果 次 于 前 者 ( Attention + PG + Coverage ) ,在 ROUGE- 
1 .ROUGE -2 和 ROUGE -L 上 的 分 数 分 别 低 0. 040 4、 
0.001 1 以 及 0. 021 8; 传 统 的 基于 注意 力 机 制 的 
seq2seq 模型 在 ROUGE-1 .ROUGE22 以 及 ROUGE 志 评 
价 指标 上 分 数 都 最 低 ,分 别 为 0. 105 4、0. 009 6 和 
0. 101 4 , 远 低 于 另外 两 种 seq2seq 模型 ( Attention + PG 
和 Attention + PG + Coverage ) 的 实验 结果 。 在 传统 抽取 
式 方 法 中 ,Lead -1 -Last 方法 在 ROUGE -1、ROUGE2 以 
及 ROUGE-L 评价 指标 上 分 数 最 高 ,分 别 为 0. 134 0、 
0.045 7 和 0. 123 4 , 略 高 于 TextRank 和 Lead -1 -First 抽 
取 式 方法 。 

综合 对 比 抽取 式 方 法 和 抽象 式 方法 可 以 看 出 , 具 
有 和 窗 盖 机 制 和 指向 生成 机 制 的 模型 在 ROUGE -1 和 
ROUGE-L 上 都 具有 更 好 的 效果 。 相 比 于 3 种 抽取 式 
方法 ,Attention + PG + Coverage 模型 在 ROUGE -1 分 数 
上 分 别提 升 0.236 9.0.214 7 和 0.219 4, 在 ROUGE -22 
分 数 上 分 别提 升 0. 080 9,0.069 0 和 0. 074 8, 在 
ROUGE -L 分 数 上 分 别提 升 0. 202 3、0. 182 7 和 
0.113 1。 实 验 结果 表明 ,与 传统 的 抽象 式 和 抽取 式 模 
型 相 比 ,本文 所 提出 的 模型 通过 结合 指向 生成 机 制 与 
履 盖 机 制 ,能 够 有 效 提 升 中 文 文本 摘要 的 效果 。 

表 3 显示 了 不 同 摘要 模型 在 相同 新 闻 文 章 上 生成 
的 摘要 比较 。 可 以 看 出 ,利用 传统 seq2seq 模型 ( Atten- 
tion) 生 成 的 摘要 中 包含 较 多 重复 的 词语 片段 , 即 源 文 
本 的 某 些 细节 信息 被 错误 地 反复 生成 ,日 这 些 重复 的 
片段 通常 由 在 训练 集中 出 现 较 频繁 的 词语 组 成 ,而 频 
度 较 低 的 词语 (仍然 包含 在 词汇 表 中 ) 往往 会 被 更 常 
见 的 词语 代替 。 例 如 在 表 3 中 ,该 方法 生成 的 摘要 中 
“被 骗 “重复 出 现 了 3 次 ,这 种 重复 较 大 程度 上 降低 了 
摘要 的 可 读 性 。 男 外 ,摘要 中 的 “深圳 ”显然 与 源 文本 
中 的 “天 津 ”一 词 不 符 ,摘要 无 法 准确 反映 源 文 本 信 
息 。 通 过 查阅 训练 数据 生成 的 固定 词汇 表 , 可 以 看 出 ， 
“深圳 ”一 词 在 训练 集中 出 现 的 频 度 为 49 398 次 ,而 
“天 津 ”一 词 在 训练 集中 出 现 的 频 度 为 15 212 次 , 相 比 
之 下 “深圳 ”一 词 更 为 常见 。 因 此 ,基线 方法 在 训练 时 
更 容易 学 习 到 “深圳 ”的 向 量 表示 ,而 学 习 到 的 “天 津 
”的 向 量 表示 较 弱 ,最 终 导致 从 词汇 表 中 生成 摘要 时 更 
容易 生成 错误 的 常见 词语 。 除 此 之 外 ,基线 方法 生成 
的 摘要 中 存在 多 个 | UNK | 表示 ,表明 传统 的 序列 模型 
无 法 生成 未 能 包含 在 词汇 表 中 的 00V 词语 ,损失 了 源 
文档 的 重要 信息 ,无 法 生成 包含 源 文档 全 部 信息 以 及 
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语义 完整 的 摘要 ,生成 的 摘要 质量 不 高 。 

在 加 入 指向 生成 机 制 后 (Attention + PG), 可 以 看 
到 对 于 同一 个 源 文档 ,利用 指向 生成 器 网 络 产生 的 摘 
要 中 , 则 将 对 应 的 [UNK ] 表 示 替 换 为 从 源 文档 中 复种 
得 到 的 命名 实体 等 内 容 , 因 此 最 终 摘 要 的 可 读 性 更 高 
目 几 乎 包含 了 源 文档 中 的 重要 信息 。 这 表明 ,利用 ] 
向 生成 机 制 能 够 很 好 地 处 理 00V 词语 。 尽 管 使 用 指 
向 生成 机 制 产 生 的 摘要 消除 了 [UNK 标识, 然而 生成 


一 


I ~ 


的 摘要 中 “天 津 警 方 破获 犯罪 嫌疑 人 ”这 一 片段 重复 
出 现 , 造 成 了 生成 摘要 的 元 余 。 

由 表 3 可 以 看 出 ,在 同时 加 入 指向 生成 机 制 和 履 
盖 机 制 后 (Attention + PG + Coverage) ,生成 的 摘要 形式 
良好 , 且 包含 源 文档 的 重要 信息 。 摘 要 结果 中 未 出 现 
不 能 被 模型 识别 的 [UNK 标记 ,同时 消除 了 摘要 中 的 
重复 片段 ,最 终 得 到 的 摘要 与 参考 摘要 在 内 容 和 语义 
上 更 加 一 致 ,与 摘要 结果 更 加 相符 。 


表 3 3 种 抽象 摘要 方法 基于 同一 篇 新 闻 产 生 的 摘要 比较 


来 源 和 方法 结果 
源 文本 日 前 ,天 津 警方 破获 了 一 起 特大 假冒 箱包 案 ,一 实体 店 长 期 销售 、 批 发 假冒 路 易 威 登 .上 古驰、 香奈儿、 巴宝莉 等 品牌 箱包 ,警方 
查获 各 类 品牌 包 袋 7000 余 个 , 按 正品 估价 值 上 亿 元 ! 目前 涉嫌 售 假 的 犯罪 嫌疑 人 已 被 抓获 。 
参考 摘要 天 津 破获 特大 假冒 箱包 案 ,LV 香奈 儿 均 被 仿冒 涉 值 上 亿 。 
Attention 深圳 警方 破获 特大 售 假 案 宣判 :LUNK ] [UNK ] [UNK][LUNK] 被 骗 1 个 月 被 骗 1 亿 ! [UNK][LUNK] 被 骗 !! [UNK]!11111 
T Attention + PG 天 津 警方 破获 特大 假冒 箱包 案 警 方 查 7000 余 个 价值 上 亿 元 一 一 目前 涉嫌 售 假 的 犯罪 嫌疑 人 已 被 抓获 一 一 天 津 警方 破获 犯 
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ttention + PG + Coverage 


.型 扩展 实验 结果 评价 

@@ 本 文 的 深层 神经 网 络 涉及 词 表 大 小 、 词 向 量 维度 
等 多 个 参数 ,实验 中 设置 神经 网 络 中 词 向 量 维度 为 
1 老 纵 ,词汇 表 包含 50 000 个 词语 。 为 进一步 研究 不 
局 站 超 参 数 对 模型 产生 摘要 质量 的 影响 ,在 Attention 
BC + Coverage 模型 上 分 别 设置 不 同 的 词 表 大 小 和 词 
癌 时 维度 进行 摘要 实验 , 比较 模型 在 不 同 的 词 表 大 小 
和 注 向 量 维度 设置 下 的 ROUGE 分 数 ,以 进一步 检验 模 
组 


4.8=1 词 表 大 小 对 于 实验 结果 的 影响 表 4 显示 本 
文 所 出 的 模型 在 使 用 不 同 的 词汇 表 进行 横向 比较 实验 
时 6 生成 摘要 得 到 的 ROUGE 分 数 比较 情况 。 从 表 4 可 
以 看 出 , 随 着 词汇 表 数 量 从 20 000 增加 到 80 000 ,模型 
生成 摘要 的 ROUGE 分 数 整 体 呈 现 先 增加 后 减少 的 趋 
势 。 在 词汇 表 大 小 为 60 000 时 ,模型 的 ROUCE -1 和 
ROUGE 工 分数 最 高 ,分别 为 0.358 1 和 0.314 8。 当 词 
汇 表 包含 70 000 词汇 时 ,对 应 的 ROUGE 2 分 数 最 高 ， 
为 0.117 8。 特 别 地 , 当 词 汇 表 大 小 为 40 000 时 ,模型 
的 ROUGE 分 数 低 于 词汇 表 大 小 为 30 000 时 ,分 别 降 
低 0.017 2 .0.006 8 和 0.018 4。 实 验 结果 表明 ,Atten- 
tion + PG + Coverage 模型 在 不 同 的 词汇 表 大 小 设置 下 
具有 不 同 的 实验 效果 ,词汇 表 大 小 对 模型 效果 具有 一 
定 的 影响 , 当 词 汇 表 为 特定 数量 ( 本文 为 60 000) 时 , 模 
型 具有 最 佳 的 效果 ,生成 的 摘要 质量 较 好 。 

4.6.2 向 量 维度 对 于 实验 结果 的 影响 表 5 显示 本 
文 提出 的 模型 在 设置 不 同 的 词 向量 维 度 进行 横向 比较 
实验 时 , 生成 摘要 得 到 的 ROUGE 分 数 比 较 。 可 以 看 
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天 津 查获 各 类 品牌 包 伐 7000 余 个 犯罪 嫌疑 人 已 被 抓获 。 按 正品 估价 值 上 亿 ! 


表 4 使 用 不 同 大 小 词 表 的 方法 得 到 的 ROUGE 分 数 比较 


Attention + PG + Coverage ROUGE-l ROUGE 2 ROUGE-L 
20 000 词汇 0.318 8 0.1054 0.285 0 
30 000 词汇 0.339 1 0.115 7 0.304 8 
40 000 词汇 0.321 9 0.108 9 0.286 4 
50 000 词汇 0.348 7 0.114 7 0.306 1 
60 000 词汇 0.3S8 1 0.115 6 0.314 8 
70 000 词汇 0.350 0 0.117 8 0.310 2 
80 000 词汇 0.320 0 0.108 8 0.287 0 


出 , 当 词 向 量 维度 为 128 维 时 ,模型 效果 最 好 ,相对 于 使 
日 64 维 词 向 量 的 模型 ,ROUGE 分 数 分 别提 高 0.018 4、 
0.003 4 以 及 0.012 3 ,与 使 用 128 维 词 向 量 的 模型 相 
比 ,ROUGE 分 数 分 别提 升 0.023 8 .0.003 7 和 0.015 8 。 
从 表 5 中 实验 结果 可 以 看 出 , 词 向 量 维度 对 Attention 
+ 了 PC + Coverage 模型 效果 具有 一 定 的 影响 ,在 设置 词 
向 量 维度 为 128 维 时 ,模型 生成 的 摘要 质量 最 好 。 

表 5 使 用 不 同 向 量 维度 的 方法 得 到 的 ROUGE 分 数 比 较 


| 


Attention + PG + Coverage ROUGE-1 ROUGE 2 ROUGE-L 
64 维 词 向 量 0.330 3 0.1113 0.293 8 
128 维 词 向 量 0.3487 0.1147 0.3061 
256 维 词 向 量 0.3249 0.1110 0.290 3 


4.7 讨论 
4.7.1 模型 的 总 体 实验 效果 分 析 ”从 模型 的 总 体 实 
验 效 果 来 看 ,与 传统 的 基于 注意 力 机 制 的 seq2seq 模型 
相 比 ,本 文 所 提出 的 Attention + PG + Coverage 模型 能 
够 更 好 地 处 理 未 登录 词语 以 及 重复 词汇 问题 ,从 而 有 
效 提升 抽象 式 中 文 文本 摘要 的 效果 。 

在 处 理 未 登录 词 方面 ,传统 的 seq2seq 模 
生成 的 摘要 中 将 其 用 [UNK ] 标 记 来 代替 ,这 


型 在 最 终 
些 标记 与 
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参考 摘要 内 容 无 法 匹配 ,导致 最 终 的 词语 匹配 率 降低 ， 
进而 使 得 其 ROUGE 分 数 较 低 。 与 传统 的 seq2seq 模 
型 相 比 ,在 实验 参数 相同 的 情况 下 ,增加 指向 生成 网 络 
的 模型 能 够 显著 提升 ROUGE 值 。 这 表明 ,通过 指向 源 
文档 中 的 词语 并 将 其 复制 到 摘要 中 ,能 够 更 好 地 解决 
抽象 式 文本 摘要 中 的 未 登录 词 问 题 ,从 而 提升 摘要 质 
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在 处 理 重复 词汇 问题 方面 ,传统 的 seq2seq 模型 采 
用 注意 力 机 制 ,在 不 同时 间 步 重复 地 关注 源 文档 相同 
位 置 ,从 而 生成 相同 的 摘要 片段 。 而 在 大 多 数 情况 下 ， 
这 些 重复 片段 与 参考 摘要 并 不 吻合 ,从 而 导致 ROUGE 
分 数 较 低 。 在 seq2seq 模型 的 基础 上 引入 指向 生成 网 
络 能 够 更 好 地 处 理 未 登录 词 问题 , 却 由 于 生成 更 多 不 
必要 的 重复 片段 ,而 使 得 摘要 变 得 宛 余 。 在 指向 生成 
网 绍 的 基础 上 增加 覆盖 机 制 , 能 够 有 效 消除 指向 生成 
网 络 所 带 来 的 词汇 重复 内 容 , 因 此 取得 了 比 指向 生成 
网 经 更 好 的 效果 。 


抽象 摘要 。 当 词 向 量 维度 较 小 (例如 64 维 ) 时 ,模型 学 
习 到 的 分 布 式 表 示 无 法 很 好 地 捕获 源 文档 中 词语 的 含 
义 ,进而 模型 不 能 很 好 地 获取 源 文 档 的 抽象 信息 ,因此 
生成 的 摘要 与 参考 摘要 存在 差距 。 当 词 向 量 维度 设置 
较 高 (例如 256 维 ) 时 ,可 能 导致 学 习 到 的 词 向 量 相对 
稀 玻 ,无 法 很 好 地 表示 词语 的 语义 信息 和 词语 间 的 内 
在 联系 ,从 而 使 得 基于 这 种 向 量 表示 生成 的 摘要 质量 
较 差 。 

4.7.3 模型 的 局 限 性 分 析 从 实验 结果 与 实际 生成 
的 摘要 对 照 来 看 ,利用 指向 生成 网 络 和 黎 盖 机 制 生成 
的 摘要 大 多 数 效 果 良 好 ,相对 于 基线 方法 有 较 大 的 提 
升 ,但 最 终生 成 的 摘要 存在 少数 与 实验 结果 不 一 致 的 
情况 。 例 如 ,具有 覆盖 机 制 的 指向 生成 器 生成 的 摘要 
“美国 研究 :肥胖 的 人 出 现 记 忆 形 失 的 可 能 性 高 出 3 
倍 ,你 知道 吗 ? 你 知道 吗 ? ”中 ,仍然 存在 不 必要 的 重复 
片段 “你 知道 吗 ?”。 这 可 能 由 于 该 片段 在 训练 数据 中 
出 现 频 度 较 高 ,在 源 文档 中 也 多 次 出 现 ,因而 模型 在 不 


二 2 参数 设置 对 模型 的 影响 分 析 ”从 参数 设置 对 
模型 的 影响 来 看 ,在 从 词汇 表 大 小 和 词 向 量 维度 两 方 
面 双 Attention + PG + Coverage 模型 进行 横向 对 照 实验 
时 \ 调 汇 表 大 小 以 及 词 向 量 维度 在 较 大 程度 上 影响 到 
模型 在 抽象 式 中 文 文本 摘要 上 的 效果 。 

“对 词汇 表 大 小 而 言 , 当 词汇 表 在 特定 规模 (例如 
60-00) 时 , 既 能 包含 足够 的 高 频 词语 ,又 能 排除 一 定 
的 低频 词语 ,在 从 词汇 表 中 采样 时 能 够 生成 较 多 源 文 
档 六 息 的 词语 作为 摘要 。 且 对 于 未 能 包含 在 词汇 表 中 
的 许 语 ,通过 指向 生成 模块 将 其 拷贝 到 摘要 中 ,因此 生 
成 的 摘要 质量 最 好 。 当 词汇 表 规 模 较 小 (例如 20 000、 
30 000 ,40 000 和 50 000) 时 ,训练 集中 部 分 频 度 较 高 的 
词语 未 能 包含 在 词汇 表 中 ( 与 频 度 最 高 的 词语 相 比 , 较 
高 的 词语 被 忽略 ) 。 模 型 在 从 词汇 表 中 采样 时 ,将 概率 
最 高 的 词语 纳入 摘要 ,从 而 使 生成 的 摘要 中 只 包含 较 
少 的 高 频 关键 词 , 与 参考 摘要 的 匹配 程度 较 低 。 当 词 
汇 表 规模 较 大 (例如 70 000 和 80 000) 时 ,在 训练 数据 
中 出 现 频 度 较 低 的 词语 也 将 包含 在 词汇 表 中 。 这 些 低 
频 词语 在 模型 学 习 过 程 中 具有 较 弱 的 词 向 量 ,即使 它 
们 包含 源 文档 重要 信息 也 很 难 被 选择 用 以 形成 摘要 ， 
因此 最 终 得 到 的 摘要 倾向 于 缺乏 重要 信息 ,与 参考 摘 
要 具有 差异 。 

对 词 向 量 维度 而 言 ,在 设置 特定 词 向 量 维度 ( 例如 
128 维 ) 时 ,分 布 式 表示 既 能 很 好 地 捕获 源 文档 词语 的 
语义 信息 ,同时 能 够 缓解 词 向 量 稀 朴 ,模型 效果 远 优 于 
使 用 其 它 向 量 维度 得 到 的 结果 ,从 而 生成 质量 较 高 的 


同 的 时 间 步 有 较 大 概率 重复 关注 相同 位 置 ,导致 摘要 
出 现 重复 内 容 。 而 利用 指向 生成 网 络 产生 的 摘要 中 仍 
然 存在 少量 的 LUNK | 标记 ,如 “男子 喝 8 两 白酒 去 江 
边 游泳 ,[UNK] 10 小 时 ” ,笔者 分 析 原 因 是 存在 一 些 
在 训练 集中 出 现 频 度 较 低 但 仍 包含 在 词汇 表 中 的 词语 
(出 现 频 度 排 序 处 于 TOP K 的 词语 ) ,其 向 量 表示 较 
弱 ,在 模型 学 习 过 程 中 无 法 从 词汇 表 中 准确 生成 ,同时 
模型 计算 出 的 词语 复制 概率 较 低 ,因此 未 能 从 源 文档 
中 复制 ,最 终 以 [UNK | 标记 代替 。 


为 解决 抽象 式 文本 摘要 中 的 未 登录 词 问题 和 摘要 
重复 问题 ,本文 在 seq2seq 模型 的 编码 器 、 解 码 器 和 注 
意 力 模块 上 增加 指向 生成 模块 和 覆盖 处 理 模块 。 从 实 
验 结果 来 看 ,一 方面 ,模型 能 够 将 指向 源 文档 中 的 未 登 
录 词 拷贝 到 最 终 摘要 中 ,从 而 很 好 地 解决 传统 序列 模 
型 中 普遍 存在 的 未 登录 词 问 题 ,消除 摘要 中 的 [ UNK] 
标记 。 男 一 方面 ,覆盖 处 理 模 块 能 够 避免 模型 在 每 一 
时 间 步 反复 地 关注 源 文档 的 相同 位 置 ,进而 避免 生成 
重复 的 摘要 片段 。 实 验 结果 表明 ,在 抽象 式 中 文 文本 
摘要 任务 中 ,利用 指向 生成 网 络 和 履 盖 机 制 能 够 有 效 
解决 未 登录 词 问 题 和 摘要 重复 问题 ,从 而 显著 提升 文 
本 摘要 质量 。 

本 文 的 不 足 之 处 在 于 :中 实验 数据 集 局 限于 中 
文 ,在 后 续 工 作 中 ,将 采用 更 多 语言 的 数据 集 对 
seq2seq 模型 用 于 抽象 式 文本 摘要 进行 研究 ; 包 仅 与 
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部 分 经 典 的 非 seq2seq 模型 方法 (包括 TextRank .Lead 
-] -First 以 及 Lead -1 -Last) 进行 对 比 , 在 后 续 工 作 中 ， 


将 与 更 多 的 非 序列 模型 进行 比较 ,以 进一步 验证 模 
型 的 有 效 性 
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Research of Abstractive Chinese Text Summarization 
Based on Seq2seq Model 
Yu Chuanming' Zhu Xingyu! Gong Yutian’ An Lu’ 
! School of Information and Safety Engineering, Zhongnan University of Economics and Law, Wuhan 430073 
“School of Information Management, Wuhan University, Wuhan 430072 
Abstract: [Purpose/significance| To deal with the Out Of Vocabulary (OOV) in text summarization while avoi- 
ding duplication of summaries this article focuses on solving the OOV problem and the self -duplication and carries out a 
profiling study. [Method/process | Bases on the sequence-to-sequence model, a pointer generator module and a coverage 
processing module are added. An attempt is made to copy the OOV into abstractive summary to solve the problem of OOV 
by means of the pointer generator module. The coverage processing module tries to avoid the Attention Mechanism paying 
attention to the same position repeatedly to solve the duplicate problem. The model is applied to the Chinese summarization 
dataset LCSTS to conduct experiments to test the effectiveness. | Result/conclusion | Experiment results show that the 
ROUGE of the generated summary is much higher than that of seq2seq model and extractive model, indicating that in the 
abstractive Chinese text summary, the pointer generator module and the coverage mechanism module can effectively solve 
it Problem of OOV and the repetition of the summary, thereby significantly improving text summary quality. 
Keywords: abstractive text summarization seduence -to -sedquence model _ attention mechanism coverage mecha- 
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